今年爆火的AI Agent應用Manus在5月13日宣佈全面開放註冊。此前,Manus因嚴格邀請制導致黑市交易火爆,邀請碼曾被炒至 10 萬元。2025年以來,相信大家都能夠明顯感受到AI Agent備受市場的關注。業內普遍認為,2025年將是Agent爆發之年。Gartner預測,到2028年,至少15%的日常工作決策將通過Al Agent完成。 微軟、Google、阿里等科技巨頭紛紛佈局卡位,OpenAI、智譜、Monica等初創公司們也爭相推出各自的“Agent”產品且已嶄露頭角。本文會從這款火爆的AI Agent產品Manus談起,來具體分享關於AI Agent的概念、技術原理、價值、以及未來趨勢。一、Manus是什麼?如何註冊體驗?關於ManusManus是一款由中國團隊Monica.im推出的AI 應用產品。2025年3月推出,被稱為“全球首個通用型AI Agent”。其名稱源自拉丁語“手”(Manus),寓意“思考與行動並重”。它是AI應用產品,不是一個大模型,所以跟DeepSeek不是一回事,所以不要和大模型混淆。這款產品的下功夫的地方主要是在我們上篇文章裡講的「應用層」,基於多智能體(multi-agent)來實現複雜且多變的通用任務處理能力。與ChatGPT、DeepSeek不同,Manus 是一款通用 AI 智能體,Manus擁有更多的技能,能夠自動規劃並一次性組合多種技能,解決一個複雜的應用場景問題的AI智能體。ChatGPT本質上是一個以大模型為主的生成式AI應用,它目前只能解決一些跟內容生成有關的問題,解決不了跟生成無關的問題,包括自動化任務,或者跨平台執行任務,比如部署網站、幫你訂餐等,這些跟生成式AI無關;而Manus AI更像是一個自主規劃並執行任務的機器人,生成式AI只是它的一部分能力,除此之外,它還能能自主執行自動化任務,或者跨端執行任務;而現實的應用場景中,使用者並不是只有AI生成的需求,還有自動化任務相關的需求,這是很多使用者認可它的原因,也就是Manus不僅思考,更能交付結果。它的功能特性體現在:實現 “思考 - 規劃 - 執行” 全流程閉環。例如當你想要AI幫你完成一份某某行業的產業鏈分析報告PPT,ChatGPT可能會幫你生成提綱和每個章節的主要內容梗概,然後你可以自己繪製PPT或者單獨找到一個PPT自動生成的AI工具幫你生成PPT。而Manus則可以自動幫你:1. 規劃:將該指令拆解為“建立Python檔案-爬取資料-生成圖表-創作分析報告-生成PPT”這個過程;2. 執行:完成整個過程所有的任務,自動去對接資料、呼叫PPT工具生成PPT。3. 最終直接將一份完整的PPT奉上。整個過程不需要人工介入。可以解決更多的通用場景問題。你可能會說有些PPT的AI生成工具也可以一句話指令幫我們生成PPT,但是對於Manus,它可以完成各種類型的任務,也就是為什麼它被稱為“通用型AI Agent”。除了生成PPT,它還可以完成圖片視訊生成、報告生成、程式碼編寫和部署、幫你打開某個網站等各個類型的任務。相比之下,ChatGPT等產品,是不能幫我們完成這麼多執行類任務的;相比一些專用的工具,如AI生成圖片、AI生成PPT的應用,我們也只能完成特定類型任務,你無法對他們提出幫你建構一個網站並部署這樣的超綱要求。總體而言,ChatGPT像一個“有頭腦有嘴的對話助手”,Manus更像一個“有頭腦有手有腳的自主打工人”,而且是一個“綜合能力強”的“自主打工人”。有了這款工具,理想的情況下,我們只需要“一句話需求”,就能得到一份“高品質的結果”,不需要我們再次人工調整。是不是聽起來相當的美妙?那麼實際上,這款產品在實際體驗上是否真的能達到這樣的水平?關於這款產品的具體能力測評網上有很多,一些使用者對Manus的高效和智能感到驚豔,但也有使用者則認為它“不成熟、難用”,並未達到預期效果。這款應用目前已經全面開放註冊體驗,大家可以親自體驗一下。下面附上註冊體驗教學,非常簡單。Manus如何註冊體驗1. 訪問Manus AI 官方地址:https://manus.im/注意:此處需要科學上網,如果使用的是國內的網路,會自動跳轉到manus中文網,中文網目前還沒有可用的服務。2.點選右上角的「開始使用」,進入註冊頁面。可以使用信箱進行註冊,或者Google或Apple帳號註冊。我選擇的是Apple帳號,使用Apple帳號註冊時,注意後面不要選擇隱藏信箱地址(我選隱藏時失敗了)。註冊過程最後一步會要求繫結手機號,手機驗證碼驗證通過後,即註冊成功。3.註冊成功後,就可以看到manus的服務首頁面了。註冊後會獲取1000個免費積分+註冊當日的300積分。後續每天會贈送300積分用於執行任務。4.在對話方塊給輸入任務要求,就可以執行了。二、AI Agent的概念和工作原理暢想一下,目前我們在工作中使用電腦時,往往在各個桌面軟體和瀏覽器網站之間穿梭。而當AI Agent與我們的各類辦公工具和企業應用軟體完成深度融合後,我們工作的模式將發生改變:我們不再需要挪動滑鼠“不斷往復的軟體操作”,我們只需要提出我們的需求,AI Agent自動幫我們來“穿梭操作”,我們只需要等待,直接拿到一個符合我們要求的結果。是不是很不錯?這裡提到的關鍵概念就是AI Agent,下面我們就來瞭解一下AI Agent的概念內涵、原理和應用價值和未來潛力。AI Agent是什麼AI Agent(人工智慧體)是能夠感知環境、自主規劃、進行決策和執行動作以實現目標的智能體,具有自主性、互動性、反應性、適應性等基本特徵,其核心驅動力為大語言模型。大致來說,一個智能體應具備類似人類的思考和規劃能力,擁有記憶甚至情感,並具備一定的技能以便與環境、智能體和人類進行互動。智能體所描述的能力範圍邊界,可以大致總結為以下公式:LLM 和 Al Agent 的區別在於:Al Agent 可以獨立思考,並做出行動。關於AI Agent的工作原理,這裡整理了兩個版本,我們先學術,再具象通俗。AI Agent架構智能體的架構我們可以從不同的視角去拆解,下面我們分別從能力視角和系統視角去看。從智能體的能力視角上看,OpenAI 的應用研究主管 Lilian Weng 提出了 Agent = LLM + 規劃 + 記憶 + 工具使用的基礎架構,其中 LLM 扮演了 Agent 的“大腦”,在這個系統中提供推理、規劃等能力。從系統工程視角上看,2024 年 Google 團隊發佈的 Agents 白皮書將AI Agent分為“思考模組”(模型)、“執行模組”(工具)、“流程控制模組”(編排)。模型:是用作 Agent 中用來做核心決策的語言模型(LM)。可以是通用的、多模態的,或根據特定 Agent 架構的需求微調得到的模型。與普通模型不同,Agent 中的模型具備原生邏輯層,內建複雜推理框架。工具:基礎模型在文字和圖像生成方面非常強大,但無法與外部世界聯動極大限制了它們的能力。 工具的出現解決了這一問題,工具層突破語言模型的靜態知識限制,賦予即時資料訪問與現實世界互動能力。例如,結合使用者資訊和獲取天氣資料的 tool,Agent 可以為使用者提供旅行建議。2024年11月25日,Anthropic開源了劃時代的“模型上下文協議”(MCP),MCP解決了資料獲取和功能獲取等API的統一接入問題。編排層:描述一個循環過程:Agent 如何接收資訊,如何進行內部推理,如何使用推理來結果來指導其下一步行動或決策。一般來說,這個循環會持續進行,直到 Agent 達到其目標或觸發停止條件。編排層的複雜性跟 Agent 及其執行的任務直接相關,可能差異很大。 例如,一些編排就是簡單的計算和決策規則,而其他的可能包含鏈式邏輯、額外的機器學習演算法或其他機率推理技術。雖然以上是兩種不同的視角,但是這兩種架構的拆分部分的對應關係如下:AI Agent 的工作原理(通俗版)為了方便大家理解,準備了一個更加通俗的工作原理介紹。簡單來說,AI Agent 就像一個聰明的“任務小管家”,能聽懂你的需求→自己想辦法→找工具幹活→再調整直到完成目標。它的核心由三層協作完成(模型、工具、編排層),配合過程可以理解為三步循環:模型層(大腦)- 決策中心相當於 Agent 的“大腦”,負責理解問題和規劃步驟。 例如,“訂機票”任務中,模型需要判斷:“使用者要飛那?需要我查航班?還是查天氣?”但模型只會“動腦”,和普通人一樣無法徒手查航班或發郵件,必須靠工具。工具層(手腳和感官)- 行動觸手當模型需要行動(例如“查北京天氣”),自動選合適工具→傳送指令→等待工具返回結果。工具類型:查資料工具:像“瀏覽器”,能搜尋即時資訊(如航班時刻)。執行工具:像“手”,可執行指令(如傳送郵件、訂機票)。儲存工具:像“文件庫”,儲存專屬知識(如公司內部資料)。編排層(流程管理員)- 循環督導確保計畫不跑偏,像“監工”一樣循環檢查: 觀察 → 思考下一步 → 呼叫工具 → 再觀察 → 直到目標達成。實際例子🌰:訂機票流程整個過程就像 “人腦思考→用手操作工具→不斷修正” 的自動化版本,最終幫你搞定複雜任務。三、AI Agent的應用價值2024年5月,微軟公司創始人比爾·蓋茲公開表示,AI Agent不僅會改變每個人與電腦互動的方式,還將顛覆軟體行業,帶來從鍵入命令到點選圖示以來,最大的計算革命。Gartner預測,到2028年,至少15%的日常工作決策將通過Al Agent完成。 微軟、Google、阿里等科技巨頭紛紛佈局卡位,OpenAI、智譜、Monica等初創公司們也爭相推出各自的“Agent”產品且已嶄露頭角。目前的主流AI Agent產品目前AI Agent產品可以分類兩類,一類是智能體應用,一類是用於建構智能體的低程式碼平台。通用智能體應用(提供任務執行能力):也就是開篇介紹的Manus這種,直接面向使用者提供一個通用的智能體應用,讓使用者能夠直接發佈指令,智能體完成任務。如:Manus:支援複雜任務處理執行。AutoGPT:自動完成程式碼生成/網路搜尋等跨平台任務通用AI智能體搭建工具(低程式碼平台):這類平台為使用者提供建構AI智能體應用的功能,也就是將上面提到的編排、模型、工具等工作原理能夠通過這個平台進行完整編排和搭建。以下是目前一些市場上主流的產品,這些廠商基於自有的大模型,搭配豐富的API和MCP,並提供工作流編排能力,以及更加便捷的項目示例或範本,讓使用者能夠輕鬆完成一個智能體應用實例的搭建。Agent的未來價值據麥肯錫預測,到2030年AI Agent將推動全球GDP增長1.3兆美元,企業級市場規模達2850億美元。關於未來價值,這裡直接貼上2024 年 Google 團隊發佈的 Agents 白皮書中的總結:“Agent的未來將非常激動人心。 隨著工具變得更加複雜,推理能力得到增強,Agent 將被賦予解決現實生活中越來越複雜的問題的能力。此外,“Agent chaining” 也將是一個戰略性方向, 通過結合 specialized Agents —— 每個 Agent 在其特定領域或任務中表現出色 —— 可以建立一種 “mixture of Agent experts”(混合智能體專家)的方法,能夠在各個行業和問題領域中提供卓越的性能。最後需要說明,複雜的 Agent 架構並不是一蹴而就的,需要持續迭代(iterative approach)。 給定業務場景和需求之後,不斷的實驗和改進是找到解決方案的關鍵。Agents 底層都是基於基座大模型,而後者的生成式性質決定了沒有兩個 Agent 是相同的。 但是,只要利用好這些基座模型,我們可以建立出真正有影響力的應用程式, 這種應用程式極大擴展了語言模型的能力,帶來了真實的現實世界價值。”本文到這裡就結束啦,感謝您能閱讀到此處,希望通過這篇文章能夠讓大家對AI產生一些新的認識和收穫。後面會針對AI的能力邊界和未來與人類的協同模式梳理和分享一些優質的前沿觀點。 (WonderLearner)